1 Podsumowanie analizy

Z każdym rokiem ceny zestawów rosną.

Jest to kluczowa obserwacja dla wytrenowanego modelu. Na jego podstawie można wymyśleć własny zestaw i przewidzieć w jakim roku mogłaby być jego cena.

2 Kod wyliczający wykorzystane biblioteki.

  library(knitr)
  library(readr)
  library(dplyr)
  library(ggplot2)
  library(DT)
  library(plotly)
  library(caret)

3 Kod zapewniający powtarzalność wyników przy każdym uruchomieniu raportu na tych samych danych.

  set.seed(123)

4 Kod pozwalający wczytać dane z plików.

  data_files <- c("inventories", "inventory_parts", "parts", "part_categories", "part_relationships", "elements", "colors", "inventory_minifigs", "minifigs", "inventory_sets", "sets", "themes")
data_list <- lapply(data_files, function(x) read_csv(paste0("Data/", x, ".csv")))

5 Kod przetwarzający brakujące dane.

additional_data <- read_csv("Data/Brickset-Sets.csv")

6 Sekcję podsumowującą rozmiar zbioru i podstawowe statystyki.

6.1 inventories

6.1.1 Rozmiar zbioru:

[1] 37265 3

6.1.2 Podstawowe statystyki:

6.1.2.1 id

Min. : 1
1st Qu.: 14424
Median : 54379
Mean : 61104
3rd Qu.: 88842
Max. :194312

6.1.2.2 version

Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.091
3rd Qu.: 1.000
Max. :16.000

6.1.2.3 set_num

Length:37265
Class :character
Mode :character

6.2 inventory_parts

6.2.1 Rozmiar zbioru:

[1] 1180987 6

6.2.2 Podstawowe statystyki:

6.2.2.1 inventory_id

Min. : 1
1st Qu.: 9404
Median : 22838
Mean : 50849
3rd Qu.: 87088
Max. :194312

6.2.2.2 part_num

Length:1180987
Class :character
Mode :character

6.2.2.3 color_id

Min. : -1.0
1st Qu.: 4.0
Median : 15.0
Mean : 131.8
3rd Qu.: 71.0
Max. :9999.0

6.2.2.4 quantity

Min. : 1.00
1st Qu.: 1.00
Median : 2.00
Mean : 3.37
3rd Qu.: 4.00
Max. :3064.00

6.2.2.5 is_spare

Mode :logical
FALSE:1104122
TRUE :76865

6.2.2.6 img_url

Length:1180987
Class :character
Mode :character

6.3 parts

6.3.1 Rozmiar zbioru:

[1] 52615 4

6.3.2 Podstawowe statystyki:

6.3.2.1 part_num

Length:52615
Class :character
Mode :character

6.3.2.2 name

Length:52615
Class :character
Mode :character

6.3.2.3 part_cat_id

Min. : 1.00
1st Qu.:17.00
Median :41.00
Mean :38.91
3rd Qu.:60.00
Max. :68.00

6.3.2.4 part_material

Length:52615
Class :character
Mode :character

6.4 part_categories

6.4.1 Rozmiar zbioru:

[1] 66 2

6.4.2 Podstawowe statystyki:

6.4.2.1 id

Min. : 1.00
1st Qu.:19.25
Median :35.50
Mean :35.36
3rd Qu.:51.75
Max. :68.00

6.4.2.2 name

Length:66
Class :character
Mode :character

6.5 part_relationships

6.5.1 Rozmiar zbioru:

[1] 29977 3

6.5.2 Podstawowe statystyki:

6.5.2.1 rel_type

Length:29977
Class :character
Mode :character

6.5.2.2 child_part_num

Length:29977
Class :character
Mode :character

6.5.2.3 parent_part_num

Length:29977
Class :character
Mode :character

6.6 elements

6.6.1 Rozmiar zbioru:

[1] 84138 4

6.6.2 Podstawowe statystyki:

6.6.2.1 element_id

Min. : 9327
1st Qu.: 4259774
Median : 6057754
Mean : 5222065
3rd Qu.: 6262024
Max. :61532443

6.6.2.2 part_num

Length:84138
Class :character
Mode :character

6.6.2.3 color_id

Min. : -1.0
1st Qu.: 8.0
Median : 28.0
Mean : 539.7
3rd Qu.: 135.0
Max. :9999.0

6.6.2.4 design_id

Min. : 1001
1st Qu.: 18454
Median : 41748
Mean : 45570
3rd Qu.: 75475
Max. :107520
NA’s :23682

6.7 colors

6.7.1 Rozmiar zbioru:

[1] 263 4

6.7.2 Podstawowe statystyki:

6.7.2.1 id

Min. : -1.0
1st Qu.: 83.0
Median :1005.0
Mean : 651.4
3rd Qu.:1070.5
Max. :9999.0

6.7.2.2 name

Length:263
Class :character
Mode :character

6.7.2.3 rgb

Length:263
Class :character
Mode :character

6.7.2.4 is_trans

Mode :logical
FALSE:219
TRUE :44

6.8 inventory_minifigs

6.8.1 Rozmiar zbioru:

[1] 20858 3

6.8.2 Podstawowe statystyki:

6.8.2.1 inventory_id

Min. : 3
1st Qu.: 7869
Median : 15681
Mean : 43010
3rd Qu.: 66834
Max. :194312

6.8.2.2 fig_num

Length:20858
Class :character
Mode :character

6.8.2.3 quantity

Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.062
3rd Qu.: 1.000
Max. :100.000

6.9 minifigs

6.9.1 Rozmiar zbioru:

[1] 13764 4

6.9.2 Podstawowe statystyki:

6.9.2.1 fig_num

Length:13764
Class :character
Mode :character

6.9.2.2 name

Length:13764
Class :character
Mode :character

6.9.2.3 num_parts

Min. : 0.000
1st Qu.: 4.000
Median : 4.000
Mean : 5.296
3rd Qu.: 5.000
Max. :156.000

6.9.2.4 img_url

Length:13764
Class :character
Mode :character

6.10 inventory_sets

6.10.1 Rozmiar zbioru:

[1] 4358 3

6.10.2 Podstawowe statystyki:

6.10.2.1 inventory_id

Min. : 35
1st Qu.: 8076
Median : 16423
Mean : 52519
3rd Qu.: 98685
Max. :191576

6.10.2.2 set_num

Length:4358
Class :character
Mode :character

6.10.2.3 quantity

Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.813
3rd Qu.: 1.000
Max. :60.000

6.11 sets

6.11.1 Rozmiar zbioru:

[1] 21880 6

6.11.2 Podstawowe statystyki:

6.11.2.1 set_num

Length:21880
Class :character
Mode :character

6.11.2.2 name

Length:21880
Class :character
Mode :character

6.11.2.3 year

Min. :1949
1st Qu.:2001
Median :2012
Mean :2008
3rd Qu.:2018
Max. :2024

6.11.2.4 theme_id

Min. : 1
1st Qu.:273
Median :497
Mean :442
3rd Qu.:608
Max. :752

6.11.2.5 num_parts

Min. : 0.0
1st Qu.: 3.0
Median : 31.0
Mean : 161.4
3rd Qu.: 139.0
Max. :11695.0

6.11.2.6 img_url

Length:21880
Class :character
Mode :character

6.12 themes

6.12.1 Rozmiar zbioru:

[1] 468 3

6.12.2 Podstawowe statystyki:

6.12.2.1 id

Min. : 1.0
1st Qu.:250.5
Median :466.0
Mean :433.5
3rd Qu.:625.2
Max. :752.0

6.12.2.2 name

Length:468
Class :character
Mode :character

6.12.2.3 parent_id

Min. : 1.0
1st Qu.:186.0
Median :411.0
Mean :360.6
3rd Qu.:512.5
Max. :697.0
NA’s :145

7 Szczegółową analizę wartości atrybutów (np. poprzez prezentację rozkładów wartości).

7.1 inventories

7.1.1 Wykres

7.1.2 99. percentyl dla liczby wystąpień ‘set_num’

7.2 Zapasy klocków w kolorach (inventory_parts i colors)

7.2.1 90. percentyl dla liczby wystąpień (color)‘name’

7.3 Skład części klocków lego (parts)

7.4 Pojedyńcze klocki w kolorach (elements i colors)

7.4.1 90. percentyl dla liczby wystąpień (color)‘name’

7.5 Zapasy klocków na podstawie zestawów (inventory_sets i sets)

7.5.1 98. percentyl dla liczby wystąpień ‘set_name’

7.6 Dostępne zestawy na podstawie kategorii zestawów (sets i themes)

7.6.1 90. percentyl dla liczby wystąpień (themes)‘name’

7.7 Średnia cena zestawów według zestawów(Brickset-Sets i sets)

7.7.1 99. percentyl dla liczby wystąpień ‘set_name’

8 Sekcję sprawdzającą korelacje między zmiennymi; sekcja ta powinna zawierać jakąś formę graficznej prezentacji korelacji.

9 Interaktywne wykresy lub animacje.

10 Sekcję próbującą podsumować najważniejsze trendy w rozwoju Lego na przestrzeni.

Najwięcej jest klocków w kolorze czarnym, co odpowiada też zapasom klocków o tym kolorze. Najwięcej dostępnych zestawów jest z kategorii Millennium Falcon. Na drugiej pozycji znajduje ię Taj Mahal. Średnio najdroższym zestawem (z najpopularniejszych) jest liebhner Crawler Crane LR 13000. Znacząca większość klocków jest produkowana z plastiku. Są też klocki zrobione z Kartonu i papieru, materiału, gumy i w niektórych przypadkach z piany, rozciągliwego plastiku oraz metalu. Z każdym rokiem ceny zestawów rosną. # Sekcję próbującą przewidzieć dalsze cechy zestawów Lego.

## Linear Regression 
## 
## 1085 samples
##    8 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold) 
## Summary of sample sizes: 976, 976, 976, 977, 976, 977, ... 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   11.93089  0.9354219  7.028383
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE
##       RMSE   Rsquared        MAE 
## 14.2532114  0.9534482  6.8310100

10.1 Przewidywanie cen dla zestawu Mandalorian Battle Pack, gdyby został wydany w innych latach